iT邦幫忙

2024 iThome 鐵人賽

DAY 5
0
IT 管理

Troubleshooting - 隔空抓藥的日常與實務技巧系列 第 5

Day5[急!在線等!][中集]周五要準時下班跟女朋友去吃生日大餐,早上一來客人丟了18xx個log給我要分析,請問如何才能準時赴約?

  • 分享至 

  • xImage
  •  

好了,我們該拿這快兩千個檔案怎麼辦好呢?

先從檔案最大的開始下手好了,一次提供這麼多檔案,相信開會時大家會有很多疑慮。

既然都是文字檔,用資料夾大小(du -h)來判斷下。

root@mynb:/mnt/d/Difficult_Company# du -h
97M     ./Additional_Logs
15M     ./CECC_Errors
116K    ./IERR
8.0M    ./UECC_Errors
7.6M    ./UMCE
21M     ./Voltage
148M    . 
  • 第一名沒想到竟然是Additional_Logs,有97M,打開裡頭一看,竟然就有11xx個檔案。

隨便開一個log來看看到底有什麼問題

 SEL Record ID          : 0001
 Record Type           : 02
 Timestamp             : 05/09/2019 01:07:17
 Generator ID          : 0020
 EvM Revision          : 04
 Sensor Type           : Management Subsys Health
 Sensor Number         : 7a
 Event Type            : Sensor-specific Discrete
 Event Direction       : Assertion Event
 Event Data            : 020100
 Description           : Management controller off-line

SEL Record ID          : 0002
 Record Type           : 02
 Timestamp             : 05/09/2019 01:07:34
 Generator ID          : 0020
 EvM Revision          : 04
 Sensor Type           : Power Supply
 Sensor Number         : f5
 Event Type            : Generic Discrete
 Event Direction       : Assertion Event
 Event Data            : 00ffff
 Description           : Fully Redundant
 ...
 ...
 ...

想不到裡頭竟然沒有任何error,真的是昏倒,不過證實了這個資料夾有一定灌水的成份在,只是欠缺檢查的手段。
因此先往有明確寫出Error symptom的資料夾先做檢查。

  • 第二名是Voltage,有21M以及177個檔案。

直覺上用grep 檢查一下voltage這個keyword,再排除檔案中有多個重複log的情況最後做計數

root@mynb:/mnt/d/Difficult_Company/Voltage# grep -i voltage * | uniq | wc -l
177
root@mynb:/mnt/d/Difficult_Company/Voltage#

初步來看數字是相符的,那麼這個資料夾再來就只剩下詳細分析了,我們往第三名前進。

  • 第三名是CECC_Errors,15M以及221個檔案,

一樣用grep 檢查一下,天啊!怎麼變成628個了!

root@AN990163884:/mnt/d/Difficult_Company/CECC_Errors# grep -i correctable * | uniq | wc -l
628
root@AN990163884:/mnt/d/Difficult_Company/CECC_Errors#

只好認命把結果用less印出來看,原因如下

root@mynb:/mnt/d/Difficult_Company/CECC_Errors# grep -i correctable * | less
107m28.log: Description           : Correctable machine check error
114m81.log: Description           : Correctable machine check error
114m85.log: Description           : Correctable ECC
114m85.log: Description           : Correctable ECC
114m85.log: Description           : Correctable ECC
114m85.log: Description           : Correctable ECC
114m85.log: Description           : Correctable ECC
114m85.log: Description           : Correctable ECC
114m85.log: Description           : Correctable ECC
114m85.log: Description           : Correctable ECC
114m85.log: Description           : Correctable ECC
114m85.log: Description           : Correctable ECC
114m85.log: Description           : Correctable ECC
114m85.log: Description           : Correctable ECC logging limit reached
114m85.log: Description           : Correctable memory error logging disabled
98m31.log: Description           : Uncorrectable machine check exception
...
...

可以看到客人在CECC_Errors的分類中,還是有夾雜其他Correctable/Uncorrectable Machine check error的問題類別,不過一般來說這些HW error常常也是夾雜附隨著發生,往往一開始只是零星的Correctable ECC or Correctable Machine check error而後立即或是過一陣子發生Uncorrectable ECC or Uncorrectable Machine check error.

至此,這個資料夾的檢查已經沒有太大價值了,因為這些機器所發生的問題已經只有複雜度的差別,無法簡單的一視同仁來處理與比較。

  • 第四名是UECC_Errors,18M以及110個檔案

    這次學乖了,先用grep確認下大概的內容

root@mynb:/mnt/d/Difficult_Company/UECC_Errors# grep -i correctable *
97m147.log: Description           : Correctable ECC
97m147.log: Description           : Correctable ECC
97m147.log: Description           : Uncorrectable machine check exception
97m147.log: Description           : Uncorrectable ECC
97m147.log: Description           : Correctable ECC
97m147.log: Description           : Correctable ECC logging limit reached
97m147.log: Description           : Correctable memory error logging disabled
97m147.log: Description           : Uncorrectable ECC
...
...

結果也和CECC_Errors類似,同樣處於Correctable ECC or Correctable Machine check error積累後成為Uncorrectable ECC or Uncorrectable Machine check error的狀態。

  • 第五名是UMCE,8M以及167個檔案

    老樣子先用cmd檢查下log

root@mynb:/mnt/d/Difficult_Company/UMCE# grep -i correctable *
114m77.log: Description           : Uncorrectable machine check exception
114m77.log: Description           : Uncorrectable machine check exception
114m77.log: Description           : Uncorrectable machine check exception
114m84.log: Description           : Uncorrectable machine check exception
114m84.log: Description           : Uncorrectable machine check exception
114m84.log: Description           : Uncorrectable machine check exception
114m87.log: Description           : Uncorrectable machine check exception
114m87.log: Description           : Uncorrectable machine check exception
114m87.log: Description           : Uncorrectable machine check exception
11m162.log: Description           : Uncorrectable machine check exception
11m162.log: Description           : Uncorrectable machine check exception
...
...

這次非常的乾淨,信心大增,來直接uniq試試好了

root@mynb:/mnt/d/Difficult_Company/UMCE# grep -i correctable * | uniq | wc -l
167

看來這個資料夾也沒有大問題。最後的IERR資料夾只有2個檔案,檢查後也是確實有發生問題。

到此資料夾的內容算是初步檢查完畢!再來就是回頭把那個不知所以的Additional_Logs處理掉,就可以帶著這些發現去開會了!


上一篇
Day4[急!在線等!][上集]周五要準時下班跟女朋友去吃生日大餐,早上一來客人丟了18xx個log給我要分析,請問如何才能準時赴約?
下一篇
Day6[急!在線等!][下集]周五要準時下班跟女朋友去吃生日大餐,早上一來客人丟了18xx個log給我要分析,請問如何才能準時赴約?
系列文
Troubleshooting - 隔空抓藥的日常與實務技巧30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言